Pseudo-réinjection de pertinence basée sur un modèle de langue mixte combinant les termes simples et composés

نویسندگان

Arezki Hammache

Mohand Boughanem

Rachid Ahmed-Ouamer

چکیده

RÉSUMÉ. Dans cet article nous présentons une nouvelle technique de reformulation de requête. Cette technique considère la requête comme un ensemble de termes composés et un ensemble de termes simples. Pour déterminer les termes d'expansion on additionne les poids des relations d'un terme candidat avec chacun des termes de la requête (simple, composé). Un terme candidat est choisi s’il est fortement en relation avec la plupart des termes de la requête. Cette technique est modélisée dans le cadre de modèle de langue. Les tests effectués sur deux collections TREC ont montré des améliorations par rapport à deux modèles: le modèle uni-gramme et le modèle d’expansion de requêtes basé sur la mesure KullbackLeibler Divergence (KLD). ABSTRACT. In this paper we present a new technique for query expansion. This technique considers the query as a set of compound terms and a set of simple terms. To determine the expansion terms we add the weight of a term relationships with each of the candidate query terms (simple, compound). A candidate term is selected if it is strongly related with most query terms. This technique is modeled in the context of the language model. Tests on two TREC collections showed improvements compared to the uni-gram model and KLD expansion model. MOTS-CLÉS : Expansion de requête, Termes composés, Modèle de langue, cooccurrence.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Extraction de la localisation des termes pour le classement des documents

Résumé. Trouver et classer les documents pertinents par rapport à une requête est fondamental dans le domaine de la recherche d’information. Notre étude repose sur la localisation des termes dans les documents. Nous posons l’hypothèse que plus les occurrences des termes d’une requête se retrouvent proches dans un document alors plus ce dernier doit être positionné en tête de la liste de réponse...

متن کامل

Multilingual Compound Splitting (Segmentation Multilingue des Mots Composés) [in French]

Résumé La composition est un phénomène fréquent dans plusieurs langues, surtout dans des langues ayant une morphologie riche. Le traitement des mots composés est un défi pour les systèmes de TAL car pour la plupart, ils ne sont pas présents dans les lexiques. Dans cet article, nous présentons une méthode de segmentation des composés qui combine des caractéristiques indépendantes de la langue (m...

متن کامل

Extraction d'objets vidéo : une approche combinant les contours actifs et le flot optique

Résumé. Dans cet article, nous présentons une méthode mixte de segmentation d'objets visuels dans une séquence d'images d'une vidéo combinant à la fois une segmentation basée régions et l'estimation de mouvement par flot optique. L'approche développée est basé sur une minimisation d'une fonctionnelle d'énergie (E) qui fait intervenir les probabilités d'appartenance (densité) avec une gaussienne...

متن کامل

Modèle unifié pour la recherche d'information sémantique

Résumé : Un modèle documentaire permet de définir les unités d’indexation (mots, termes, etc.) et de les relier aux documents dans lesquels elles apparaissent. Il permet également de définir les liens entre documents ou portions de documents (ex. citation). Les modèles documentaires sont généralement exploités en recherche d’information pour la représentation des documents et des requêtes et il...

متن کامل

Intrégration des facteurs temps et autorité sociale dans un modèle bayésien de recherche de tweets

RÉSUMÉ. Cet article présente une approche sociale pour la recherche d’information dans les microblogs intégrant diverses sources d’évidence au sein d’un réseau bayésien. Notre contribution consiste à étendre la notion classique de pertinence, basée sur la similarité textuelle, par de nouveaux facteurs tels que l’importance sociale des blogueurs et la magnitude temporelle des microblogs. Dans ce...

متن کامل

ذخیره در منابع من

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره شماره

صفحات -

تاریخ انتشار 2013

Pseudo-réinjection de pertinence basée sur un modèle de langue mixte combinant les termes simples et composés

نویسندگان

چکیده

منابع مشابه

Extraction de la localisation des termes pour le classement des documents

Multilingual Compound Splitting (Segmentation Multilingue des Mots Composés) [in French]

Extraction d'objets vidéo : une approche combinant les contours actifs et le flot optique

Modèle unifié pour la recherche d'information sémantique

Intrégration des facteurs temps et autorité sociale dans un modèle bayésien de recherche de tweets

عنوان ژورنال:

اشتراک گذاری